Adaptation d'un système de reconnaissance d'entités nommées pour le français à l'anglais à moindre coût (Adapting a French Named Entity Recognition System to English with Minimal Costs) [in French]
نویسنده
چکیده
RÉSUMÉ La portabilité entre les langues des systèmes de reconnaissance d’entités nommées est coûteuse en termes de temps et de connaissances linguistiques requises. L’adaptation des systèmes symboliques souffrent du coût de développement de nouveaux lexiques et de la mise à jour des règles contextuelles. D’un autre côté, l’adaptation des systèmes statistiques se heurtent au problème du coût de préparation d’un nouveau corpus d’apprentissage. Cet article étudie l’intérêt et le coût associé pour porter un système existant de reconnaissance d’entités nommées pour du texte bien formé vers une autre langue. Nous présentons une méthode peu coûteuse pour porter un système symbolique dédié au français vers l’anglais. Pour ce faire, nous avons d’une part traduit automatiquement l’ensemble des lexiques de mots déclencheurs au moyen d’un dictionnaire bilingue. D’autre part, nous avons manuellement modifié quelques règles de manière à respecter la syntaxe de la langue anglaise. Les résultats expérimentaux sont comparés à ceux obtenus avec un système de référence développé pour l’anglais.
منابع مشابه
Supervised learning on encyclopaedic resources for the extension of a lexicon of proper names dedicated to the recognition of named entities (Apprentissage supervisé sur ressources encyclopédiques pour l'enrichissement d'un lexique de noms propres destiné à la reconnaissance des entités nommées) [in French]
متن کامل
A Mixed Morpho-Syntactic and Statistical Approach to Chinese Named Entity Recognition (Une approche mixte morpho-syntaxique et statistique pour la reconnaissance d'entités nommées en langue chinoise) [in French]
متن کامل
Named Entity Recognition and Correction in OCRized Corpora (Détection et correction automatique d'entités nommées dans des corpus OCRisés) [in French]
Résumé. La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour atteindre une qualité éditoriale reste aujourd’hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d’erreurs à l’aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue géné...
متن کاملExtraction automatique d'affixes pour la reconnaissance d'entités nommées chimiques
Résumé. Dans cet article nous détaillons une approche permettant de détecter des affixes et des termes déclencheurs à partir de dictionnaires de façon automatique en se basant sur l’algorithme de la plus longue sous-chaîne commune, dans le cadre de la reconnaissance d’entités nommées chimiques sur CHEMDNER. Nous verrons ensuite des méthodes de sélection et de tri afin de les intégrer au mieux d...
متن کاملVers l'échantillonnage d'un entrepôt de données
Résumé. L'afflux de données sur les usages des produits et services nécessite des traitements lourds pour les transformer en information. Or la capacité à traiter les données ne peut pas suivre l'augmentation exponentielle des volumes stockés. Avec les technologies actuelles, un difficile compromis doit être trouvé entre le coût de mise en œuvre et la qualité de l'information produite. Nous pro...
متن کامل